草庐IT

Hadoop : NoSuchMethodException

全部标签

hadoop - 使用 JOIN 语法的 Hive RLIKE

我在配置单元上有两个表。第一个称为“访问”,包含apache日志,其中第一个字段是完整的ip地址:10.4.5.12--[26/Jun/2010:11:16:09+1000]"GET/myportal/pageAHTTP/1.1"10.4.41.2--[26/Jun/2010:11:18:09+1000]"GET/myportal/pageBHTTP/1.1"10.5.1.111--[26/Jun/2010:11:22:09+1000]"GET/myportal/pageAHTTP/1.1"192.10.4.177--[26/Jun/2010:11:22:41+1000]"GET/my

hadoop - 定时上传HDFS数据

我正在做一个项目,我会实时收集数据。我想定期将该数据从我的本地机器上传到HDFS。这里的频率将每隔几个小时。我的想法是安排一个批处理文件在2小时后定期运行。 最佳答案 你有几个选择:使用cron作业。如果您希望它更复杂,您可以使用ApacheOozie来安排您的作业。如果您希望以分布式、可靠和容错的方式完成此操作,您可以使用ApacheFlume。借助Flume,您甚至可以通过为数据源编写自定义Flume源直接从源收集数据,而无需先将数据聚合到本地FS,然后再将其移动到HDFS。 关于h

hadoop - 我可以在同一台 Linux 机器上有两个 sudo 用户吗?

我正在使用ubuntu。我有一个名为hduser的super用户和另一个名为hadoopuser的用户,我在其中安装了hadoop并正在使用它。我的问题是我应该在哪里安装其他软件hive&pig。因为当我安装pig时一切正常,加载数据和一切,但是当我转储变量以打印输出时我得到异常org.apache.hadoop.security.AccessControlException:Permissiondenied:user=hduser,access=WRITE,inode="":hadoopuser:supergroup:rwxr-xr-xorg.apache.pig.impl.logi

hadoop - 自动链接 mapreduce 库

我正在开发一个在亚马逊网络服务上运行的mapreduce程序(它实际上是一个相当复杂的字数统计算法)。我生成了一个在AWS节点上运行的.jar。我现在正在做的是将所有mapreduce库jar合并到我的.jar文件中。一切正常,但我认为这不是一个很好的做法(他们对机器镜像进行了一些更新,我收到了可能与此相关的奇怪异常)。有人可以向我解释如何自动链接安装在亚马逊上的hadoop版本,这样我就可以在不将外部库添加到我的jar的情况下做到这一点吗?非常感谢您的帮助! 最佳答案 所以您正在使用Amazon的ElasticMapReduce!

hadoop - 接受多个输入的 Pig UDF

PigUDF的快速问答。我有一个自定义UDF,我想接受多列:packagepigfuncs;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.pig.EvalFunc;importorg.apache.pig.FuncSpec;importorg.apache.pig.data.DataBag;importorg.apache.pig.data.DataType;importorg.apache.pig.data.Tuple;importorg.apache

hadoop - 如何确定 Hadoop 使用的所有默认端口并更改所有端口?

我在运行CentOS6.4的三个虚拟机集群上尝试了Hadoop2。我成功启动了hadoop集群,虽然Hadoop2的配置文件如:core-site.xml,hdfs-site.xml,mapred-site.xml和yarn-site.xml折磨我很多。我想把Hadoop2使用的所有默认端口都改掉,配置文件的官方文档定义了那么多端口号。因此,我认为最好确定Hadoop在运行时使用了哪些端口,然后将其全部更改。那么如何在运行CentOS的集群中找出Hadoop使用的所有默认端口呢?谢谢。 最佳答案 您可以通过使用netstat命令并结

hadoop - CDH4 主要用于 YARN 吗?

我有几个关于CDH4的问题或困惑。我在这里发帖是因为我没有得到关于我的问题的任何具体信息。CDH4是为了推广YARN吗?我尝试使用tarball使用CDH4.3.0设置MapReduce1。我终于做到了,但它是迂回而痛苦的。而YARN的设置很简单。有人在生产中使用YARN吗?Apache明确表示YARN仍处于alpha版本,不适合生产。在这种情况下,为什么Cloudera以CDH4YARN为中心?Cloudera是否在生产中支持YARN?如果问题不合适,我们深表歉意。这就是tarball解压的样子。我关注了几个links进行配置,但我对必须完成的方式不满意CDH4.3.0tarball

hadoop - oozie 历史日期协调员

我想为历史日期运行oozie协调器,并将日期作为参数传递给工作流中的脚本。我该怎么做?我可以将开始日期设为旧日期吗?它会catch吗?我应该添加什么频率。 最佳答案 是的,当您提交开始日期为过去的协调器时,它会catch。它会立即开始执行,因此设置concurrency=1可以使您的集群免于繁重的负载。如果你想先处理新文件,你也可以设置execution=LIFO。有关更多信息,请查看http://oozie.apache.org/docs/3.3.2/CoordinatorFunctionalSpec.html我正在发布来自How

hadoop - 使用hadoop map reduce获取最高薪水员工姓名

我是M/R程序的新手..我在HDFS中有一个包含这种结构数据的文件EmpId,EmpName,Dept,Salary,1231,用户名1,部门1,50001232,用户名2,部门2,60001233,用户名3,部门3,7000.......................现在我想找到工资最高的员工的姓名我写了一个mapreduce来找到最高的薪水。在我的映射器类中,我发出了这样的输出output.collect("最大值",员工工资);在reducer中,我找到了键“maxvalue”的最大值。现在我想在映射器中使用这个值,并找到赚取最高薪水的员工的名字。我如何发送reducer输出映

hadoop - Datanode启动但不启动namenode

经过一番努力,我最终设法在伪分布式节点中使用hadoop,namenode和jobtracker完美运行(在http://localhost:50070和http://localhost:50030)昨天我尝试重启我的namenode、datanode等:$hadoopnamenode-format$start-all.shjps给我以下输出:17148DataNode17295SecondaryNameNode17419JobTracker17669JpsNamenode似乎不再愿意启动了......Jobtracker几秒钟后就死了。标记我没有重新启动计算机并且我已经尝试了以下线程